查看原文
其他

为什么你的模型,业务总是不满意

66号学苑 2022-11-25

其实我做建模到现在一段时间了,之前会比较关系模型的算法,代码的实现,但是到我现在的阶段,模型该踩的坑,踩的七七八八了,代码也会写了, sas,python,R也是每个软件都会一些但没有说精通,只能说够用,那么现阶段我碰到的我在建模工作中经常要处理就是我的模型效果是否满足产品或者业务方的需求。


这篇文章就想告诉我在做模型的时候与产品互怼的矛盾点经常是有什么情况:


1.模型最终为什么要转分比较好

     

其实转成标准分,本来是LR比较常说要转分,那是因为很多公司都要把模型部署到决策引擎上,所以做成if-else的形式好部署,但其实,你不要转标准分也是可以部署,但往往要求说转标准分还有一个原因是,如果你们有注意到,但凡是样本不均衡的情况,不处理直接建模的,出来的预测概率都是会聚集在预测概率高那一部分(0.9以上),导致分组,区间很多都是0.9几到0.9几这种情况,所以这样子,不懂模型的人就会问,这样子的意思,是不是我们的客户其实都是高分,客户质量很好,我有一次就是这样子.


但其实这个问题,只要转标准分就解决了,转了标准分之后,只要你的样本是那种很过分变态那种就可以转成类正态了,具体的理论可以查看《logistic回归入门》这本书的17-18页,这几页就是单独讲转标准分的原理,不只针对logistic,也是用与xg、rf这些算法。那么为什么业务方为什么喜欢类正态呢,因为这样子他们能比较好的去划分客户等级,那同事也说明了你们公司的客户跟其他的公司的一样,都是特别坏的还有特别好的都不多。以下是python转标准分的代码,拿走,不谢:


def score(P0,p,ck,pbase):

B=ck/log(2)

A=P0+B*log(pbase/(1-pbase))

score=round(A+B*log(p/(1-p)))

return score


2.模型到底等深还是等频分布。

       

我个人是习惯等频分布(即每个组的人数平均),因为我做数据最怕数据偶然性,得出的偶然性结论,但是我们产品他喜欢等深(即每一组的距离一样,50-100,100-150),我有一次就问他啊,为什么你喜欢用等深分布?是因为他站在分数上来说,跟我们考试分数,65分-85分是等频分组时候是一组,但是65分和85分是一样的吗,当然不一样,所以这里我就与业务方有了偏差,所以从那之后每次汇报模型,我都做两份图表,一份是等深,一份是等频的。


3.模型是一个环节,但是风控是一个流程

       

很多公司都是策略一个组,建模一个组,有些公司策略和模型组信息不互通的,导致有时候,模型的效果下降,很可能就是策略的一条规则,所以模型在验证数据时候,不仅要验证其在分数上逾期特征是否明显,还应该验证,是否等分组在进件时候也是低批核率,这在之前的文章写过一个拒绝演绎的时候介绍过。建议是模型在宣讲时候,模型可用的情况下是,低分层不仅批核率低,并且授信金额也应该低(前提是你们额度模型合理的情况下)


这边只是建议说你在做模型汇报的时候考虑到这些点,其实做模型大家都有过,你的模型做的你觉得很满意,但是业务方为什么就不懂你模型的好,但是好的模型不仅是一个高的ks,还有你做出来的分布能够满足业务方的决策,举个简单的例子,你做的模型效果很好,但是最低分的一组占总体样本的5%,但是逾期率却才整体样本的1.2倍,那么你这个模型,业务方根本不知道怎么用啊,因为你最低分的用户不够坏啊。


对于我来说,能好好的做完模型,又把他好好的汇报完,然后完成的部署,我的建模过程才算真正的完成,假设你做了一个模型,不能让别人理解模型的好,那到底是你模型做的不好,还是你汇报写的不好,总归还是你的不好,所以为了让自己更好,还是要多多站在业务方的角度出发去思考,他们喜欢看到什么样的模型。



来源|屁屁的sas数据分析

作者|屁屁的sas数据分析




更多精彩,戳这里:


|这是一份可以让你很牛很牛的风控技能包|

|40页PPT详解金融业智能反欺诈的应用|

|Vintage、滚动率、迁移率的应用|

|一份最全风控产品质量监控(PQR)总结|

|电商及社交数据在金融反欺诈领域的应用|




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存